滤波方程控制给定部分,并且可能嘈杂,依次到达的信号过程的条件分布的演变。它们的数值近似在许多真实应用中起着核心作用,包括数字天气预报,金融和工程。近似滤波方程解决方案的一种经典方法是使用由Gyongy,Krylov,Legland,Legland,Legland的PDE启发方法,称为分裂方法,其中包括其他贡献者。该方法和其他基于PDE的方法,具有特别适用性来解决低维问题。在这项工作中,我们将这种方法与神经网络表示相结合。新方法用于产生信号过程的无通知条件分布的近似值。我们进一步开发递归归一化程序,以恢复信号过程的归一化条件分布。新方案可以在多个时间步骤中迭代,同时保持其渐近无偏见属性完整。我们用Kalman和Benes滤波器的数值近似结果测试神经网络近似。
translated by 谷歌翻译
Massive data corpora like WebText, Wikipedia, Conceptual Captions, WebImageText, and LAION have propelled recent dramatic progress in AI. Large neural models trained on such datasets produce impressive results and top many of today's benchmarks. A notable omission within this family of large-scale datasets is 3D data. Despite considerable interest and potential applications in 3D vision, datasets of high-fidelity 3D models continue to be mid-sized with limited diversity of object categories. Addressing this gap, we present Objaverse 1.0, a large dataset of objects with 800K+ (and growing) 3D models with descriptive captions, tags, and animations. Objaverse improves upon present day 3D repositories in terms of scale, number of categories, and in the visual diversity of instances within a category. We demonstrate the large potential of Objaverse via four diverse applications: training generative 3D models, improving tail category segmentation on the LVIS benchmark, training open-vocabulary object-navigation models for Embodied AI, and creating a new benchmark for robustness analysis of vision models. Objaverse can open new directions for research and enable new applications across the field of AI.
translated by 谷歌翻译
Training effective embodied AI agents often involves manual reward engineering, expert imitation, specialized components such as maps, or leveraging additional sensors for depth and localization. Another approach is to use neural architectures alongside self-supervised objectives which encourage better representation learning. In practice, there are few guarantees that these self-supervised objectives encode task-relevant information. We propose the Scene Graph Contrastive (SGC) loss, which uses scene graphs as general-purpose, training-only, supervisory signals. The SGC loss does away with explicit graph decoding and instead uses contrastive learning to align an agent's representation with a rich graphical encoding of its environment. The SGC loss is generally applicable, simple to implement, and encourages representations that encode objects' semantics, relationships, and history. Using the SGC loss, we attain significant gains on three embodied tasks: Object Navigation, Multi-Object Navigation, and Arm Point Navigation. Finally, we present studies and analyses which demonstrate the ability of our trained representation to encode semantic cues about the environment.
translated by 谷歌翻译
胶囊网络(CAPSNET)旨在将图像解析为由对象,部分及其关系组成的层次组件结构。尽管它们具有潜力,但它们在计算上还是很昂贵的,并且构成了一个主要的缺点,这限制了在更复杂的数据集中有效利用这些网络的限制。当前的CAPSNET模型仅将其性能与胶囊基线进行比较,并且在复杂任务上的基于CNN的DEEP基于DEEP基于CNN的级别的性能。本文提出了一种学习胶囊的有效方法,该胶囊通过一组子封装来检测输入图像的原子部分,并在其上投射输入向量。随后,我们提出了Wasserstein嵌入模块,该模块首先测量由子胶囊建模的输入和组件之间的差异,然后根据学习的最佳运输找到它们的对齐程度。该策略利用基于其各自的组件分布之间的相似性来定义输入和子胶囊之间的一致性的新见解。我们提出的模型(i)是轻量级的,允许将胶囊应用于更复杂的视觉任务; (ii)在这些具有挑战性的任务上的表现要好于或与基于CNN的模型相提并论。我们的实验结果表明,Wasserstein嵌入胶囊(Wecapsules)在仿射转换方面更加强大,有效地扩展到较大的数据集,并且在几个视觉任务中胜过CNN和CAPSNET模型。
translated by 谷歌翻译
快速生产具有纳米分辨率的大面积模式对于已建立的半导体行业和实现下一代量子设备的工业规模生产至关重要。具有二进制全息掩模的亚稳定原子光刻被认为是当前最新水平的较高分辨率/低成本替代方法:极端紫外线(EUV)光刻。然而,最近表明,亚稳定原子与掩模材料(SIN)的相互作用导致波前的强烈扰动,而不是基于经典标量波。这意味着即使在1D中也无法在分析上解决逆问题(基于所需模式创建掩码)。在这里,我们提出了一种机器学习方法,以掩盖产生的目标是亚稳定性原子。我们的算法结合了遗传优化和深度学习来获得面具。一种新型的深神经结构经过训练,可以产生面膜的初始近似。然后,该近似值用于生成可以收敛到任意精度的遗传优化算法的初始种群。我们证明了Fraunhofer近似极限内系统维度的任意1D模式的产生。
translated by 谷歌翻译
大量数据集和高容量模型推动了计算机视觉和自然语言理解方面的许多最新进步。这项工作提出了一个平台,可以在体现的AI中实现类似的成功案例。我们提出了Procthor,这是一个程序生成体现的AI环境的框架。 Procthor使我们能够采样多种,交互式,可自定义和性能的虚拟环境的任意大型数据集,以训练和评估在导航,互动和操纵任务中的体现代理。我们通过10,000个生成的房屋和简单的神经模型的样本来证明procthor的能力和潜力。仅在Procthor上仅使用RGB图像训练的模型,没有明确的映射,并且没有人类任务监督在6个体现的AI基准中产生最先进的结果,用于导航,重排和手臂操纵,包括目前正在运行的Habitat 2022,AI2-- Thor重新安排2022,以及机器人挑战。我们还通过对procthor进行预训练,在下游基准测试上没有进行微调,通常会击败以前的最先进的系统,从而访问下游训练数据。
translated by 谷歌翻译
体现了AI已经显示出对模拟中的丰富机器人任务的结果,包括视觉导航和操纵。事先工作通常与最短的路径一起追求高成功率,同时在很大程度上忽略了互动期间碰撞引起的问题。这种缺乏优先级识别是可以理解的:在模拟环境中,不存在破坏虚拟对象的固有成本。因此,尽管最终成功,但训练有素的代理经常具有与对象的灾难性碰撞。在机器人社区中,碰撞成本大,碰撞避免是一项长期的和关键的话题,以确保机器人可以安全地部署在现实世界中。在这项工作中,我们将第一步迈向碰撞/干扰体现AI代理,用于视觉移动操作,促进真正的机器人安全部署。我们在核心开发了一种新的干扰 - 避免方法是扰动预测的辅助任务。当与干扰罚款结合时,我们的辅助任务通过知识蒸馏到代理商的知识蒸馏而大大提高了样本效率和最终性能。我们对Manipulathor的实验表明,在用新型物体的测试场景上,我们的方法将成功率提高了61.7%至85.6%,而且在原始基线的29.8%至50.2%的情况下,成功率没有干扰。广泛的消融研究表明了我们流水线方法的价值。项目网站位于https://sites.google.com/view/disturb-free
translated by 谷歌翻译
与人类沟通对AIS有挑战性,因为它需要对世界的共同理解,复杂的语义(例如,隐喻或类似物),并且在多码模态手势(例如,指向手指,或图中的箭头)。我们在基于图案的基础上的绘画和猜测的语境中调查了这些挑战,这对研究界构成了一种新的挑战。在ICONARY中,猜测者试图通过编写图标来识别抽屉绘制的短语,以及抽屉迭代地修改绘图以帮助猜测响应的猜测。这次来回经常使用规范场景,视觉隐喻或图标组成来表达具有挑战性的词语,使其成为AI中混合语言和视觉/象征性通信的理想测试。我们提出模型进行图标,并在人类球员之间的55,000多场比赛中培训。我们的型号是熟练的玩家,能够在语言模型中雇用世界知识,以便在训练期间与看不见的文字一起玩。精英人类球员优于我们的模型,特别是在绘图任务中,留下了未来研究的重要缺口。我们将数据集,代码和评估设置释放为对社区的挑战http://www.github.com/allenai/conary。
translated by 谷歌翻译
在本文中,我们介绍了Foodi-ML数据集。该数据集包含超过150万个唯一图像,超过9.5m的商店名称,产品名称描述以及从Glovo应用程序收集的收集部分。提供的数据对应于来自欧洲,中东,非洲和拉丁美洲37个国家的食品,饮料和杂货产品。该数据集理解了33种语言,其中包括来自东欧和西亚州(例如乌克兰语和哈萨克)国家 /地区的870k语言样本,这些语言在迄今为止在公开可用的Visio语言数据集中所占的不足。该数据集还包括说话语言,例如西班牙语和英语。为了帮助进一步的研究,我们在两项任务上包括基准:文本图像检索和有条件的图像产生。
translated by 谷歌翻译
在实践中,只要可以设计教学代理以提供专家监督,仿制学习就是纯粹的加强学习。但是,我们表明,当教学代理商决定与学生无法访问的特权信息时,在模仿学习期间,此信息被边缘化,导致“模仿差距”,导致潜在,差距。先前的工作通过仿制学习的仿制学习来弥合这一差距。虽然经常成功,但逐步的进展失败,需要频繁切换勘探和记忆之间的频繁交换。为了更好地解决这些任务并减轻模仿缺口,我们提出“适应性不管”(顾问)。顾问在培训期间动态重量仿制和奖励的加固学习损失,在模仿和探索之间启用了在线切换。在Gridworlds中设置的一套充满挑战的任务,多代理粒子环境和高保真3D模拟器,我们展示了与顾问的在线交换,优于纯粹的模仿,纯粹的加固学习以及它们的顺序和并行组合。
translated by 谷歌翻译